년 10월 AI 및 로봇 연구 동향
1. 서론: 2024년 10월 AI 및 로봇 연구 동향 개관
2024년 10월은 인공지능(AI) 및 로봇 연구 분야에서 중요한 변곡점으로 기록될 한 달이었다. 이 시기는 거대 생성 모델이 물리적 세계와 본격적으로 결합하기 시작하고, 실제 산업 현장의 복잡한 문제 해결에 대한 연구가 심화되었으며, 고도화된 AI 기술의 사회적 영향력에 대한 인식이 확산되는 특징을 보였다. 본 보고서는 동료 연구자, 고급 대학원생, 그리고 심도 있는 기술적 분석을 요구하는 R&D 전문가를 대상으로, 해당 월에 발표된 핵심 연구 성과를 심층적으로 분석하고 종합적인 통찰을 제공하는 것을 목표로 한다.
보고서는 먼저 동료 심사를 거친 주요 학술대회의 연구 결과를 분석하여 검증된 과학적 진보를 살펴본다. 이후 보스턴 다이내믹스, 도요타 연구소, OpenAI, Meta, Google 등 주요 산업 연구소의 발표를 통해 학술적 성과가 실제 산업 R&D에 어떻게 반영되고 있는지를 추적한다. 마지막으로, arXiv와 같은 사전 공개 아카이브에 등재된 방대한 양의 논문을 분석하여 아직 학계의 검증을 거치지 않았으나 미래 연구 방향을 제시하는 새로운 아이디어와 흐름을 조망한다.
이러한 구조를 통해 2024년 10월을 관통하는 세 가지 핵심 주제를 심도 있게 탐구한다. 첫째, **체화된 파운데이션 모델(Embodied Foundation Models)**의 부상이다. 이는 특정 작업을 위해 설계된 기존의 정책(policy)에서 벗어나, 사전 훈련된 거대하고 일반화 가능한 단일 모델을 로봇 제어의 핵심으로 삼는 패러다임의 전환을 의미한다. 둘째, **산업적 실용주의와 강건성(Industrial Pragmatism and Robustness)**의 강조이다. 학계와 산업계 모두 제조, 물류와 같이 실질적이고 복잡한 현실 세계의 문제를 해결하는 데 연구 역량을 집중하는 경향이 뚜렷해졌다. 셋째, **생성 AI의 양면성(The Duality of Generative AI)**이다. 창의적인 AI 응용 분야가 폭발적으로 성장하는 동시에, 이러한 기술의 악의적 사용을 방지하기 위한 안전 및 보안 프레임워크 개발의 필요성이 대두되었다.
본격적인 분석에 앞서, 2024년 10월에 있었던 주요 행사 및 발표를 아래 표로 정리하여 월간 동향의 전체적인 맥락을 파악할 수 있도록 하였다. 이 표는 독자가 각 사건의 시간적, 주제적 위치를 이해하고 이어지는 심층 분석의 길잡이로 삼을 수 있도록 구성되었다.
| 행사/발표 (Event/Announcement) | 날짜 (Date) | 주요 내용 (Key Details) | 주관 기관 (Organizing Body) |
|---|---|---|---|
| International Robot Safety Conference | 2024년 10월 1-3일 | 로봇 안전 표준 및 모범 사례 검토 (Review of robot safety standards and best practices) | Association for Advancing Automation |
| Autonomous Mobile Robots & Logistics | 2024년 10월 8-10일 | 물류 분야 자율이동로봇(AMR) 집중 조명 (Focus on Autonomous Mobile Robots (AMR) in logistics) | A3 |
| OpenAI Influence Operations Report | 2024년 10월 9일 | AI의 기만적 사용 및 사이버 작전 대응 현황 보고 (Report on deceptive uses of AI and cyber operations) | OpenAI |
| IROS 2024 | 2024년 10월 14-18일 | “지속가능발전을 위한 로보틱스” 주제, 주요 논문상 발표 (Theme: “Robotics for Sustainable Development,” announcement of major paper awards) | IEEE/RSJ |
| RoboBusiness | 2024년 10월 16-17일 | 로봇 및 AI 분야 최신 연구, 산업 동향 및 응용 사례 발표 (Presentation of latest research, industry trends, and applications in robotics and AI) | WTWH Media |
| Boston Dynamics & TRI Partnership | 2024년 10월 16일 | 휴머노이드 로봇 ’아틀라스’와 ‘거대 행동 모델(LBM)’ 결합 공동 연구 발표 (Announcement of joint research combining ‘Atlas’ humanoid with ‘Large Behavior Models (LBM)’) | Boston Dynamics, Toyota Research Institute |
| Global Meet on Robotics and AI | 2024년 10월 21-23일 | 로봇 및 AI 분야 연구자 및 산업계 전문가 교류 (Networking for researchers and industry professionals in robotics and AI) | Science Wide Meetings |
| NeurIPS 2024 Camera-Ready Deadline | 2024년 10월 30일 | 최종 논문 제출 마감, 다수 논문 arXiv 등재 (Final paper submission deadline, numerous papers appear on arXiv) | NeurIPS |
2. 주요 학술대회 발표 심층 분석
2024년 10월은 동료 심사를 통해 검증된 최신 연구 성과들이 대거 공개된 시기였다. 특히 세계 최고 권위의 로봇 학회인 IROS가 개최되었고, CoRL 및 NeurIPS와 같은 최상위 AI 학회의 채택 논문들이 최종본 제출과 함께 사전 공개되면서 학문적 논의의 장이 활짝 열렸다. 이 섹션에서는 이들 학회를 중심으로 발표된 핵심 연구들을 심층적으로 분석하여, 해당 시점의 검증된 과학적 진보의 현주소를 파악한다.
2.1 IROS 2024: 지속가능성을 위한 로봇공학의 현재
아부다비에서 개최된 2024년 IEEE/RSJ 지능형 로봇 및 시스템 국제 학회(IROS 2024)는 “지속가능발전을 위한 로보틱스(Robotics for Sustainable Development)“라는 주제를 전면에 내세웠다.1 이는 로봇공학 분야가 이론적 가능성을 탐구하는 단계를 넘어 환경 모니터링, 지속 가능한 제조, 의료 등 전 지구적 난제를 해결하는 데 기여하려는 성숙 단계에 진입했음을 시사한다. 실제로 칼리파 대학 부스에서 선보인 수중 로봇을 통한 해양 모니터링 및 정화 기술 등은 이러한 주제 의식을 구체적으로 보여주는 사례였다.2 또한, 중동 및 북아프리카(MENA) 지역에서 최초로 개최되었다는 점은 최상위 로봇 연구의 지리적 저변이 전 세계로 확장되고 있음을 상징적으로 나타낸다.2
2.1.1 주요 수상 연구 분석: 산업 및 지능형 로봇 기술의 최전선
IROS 2024에서 발표된 수상 연구들은 현재 로봇공학이 당면한 가장 중요한 문제들과 그 해결을 위한 최첨단 접근법을 명확히 보여준다. 특히 산업 로봇, 동적 환경과의 상호작용, 그리고 학습된 기술의 일반화라는 세 가지 축에서 주목할 만한 성과가 두드러졌다.
2.1.1.1 산업 로봇 연구 최우수 논문상: “Harnessing with Twisting”
자동차 및 항공우주 산업에서 여전히 수작업에 크게 의존하는 와이어 하네싱(wire-harnessing) 공정은 로봇 자동화 분야의 오랜 난제 중 하나로 꼽힌다.3 변형 가능한 선형 객체(Deformable Linear Objects, DLOs)의 복잡하고 예측 불가능한 동역학 때문이다.4 이 연구는 바로 이 문제에 대한 혁신적인 해법을 제시하며 산업 로봇 연구 최우수 논문상을 수상했다.3
이 논문의 핵심적인 기여는 두 개의 로봇 팔이나 복잡한 촉각 센서 없이, 단일 로봇 팔의 ‘비틀림(twisting)’ 동작만으로 와이어에 필요한 장력(tension)을 생성하여 클램프에 정확하게 삽입하는 새로운 파이프라인을 제안한 점이다.4 이는 산업 현장에서 비용 효율성과 적용 가능성을 크게 높일 수 있는 실용적인 접근법이다.
기술적으로 이 방법론의 중심에는 쿠프만 연산자(Koopman operator)에 기반한 모델 예측 제어(Model Predictive Control, MPC) 프레임워크가 있다. 쿠프만 연산자는 비선형 동역학 시스템을 무한 차원의 선형 시스템으로 변환하는 수학적 도구로, 이를 통해 복잡한 DLO의 동역학을 효과적으로 선형화하고, 이를 바탕으로 MPC를 통해 최적의 제어 입력을 효율적으로 계산할 수 있게 한다. 시스템의 상태 공간 표현은 다음과 같이 선형적으로 모델링된다.
\begin{aligned}
z_{k+1} &= A z_k + B u_k \\
y_k &= C z_k
\end{aligned}
여기서 z_k는 쿠프만 공간으로 변환된 ‘상승된(lifted)’ 상태 벡터이며, A, B, C는 데이터로부터 학습된 선형 시스템 행렬이다. MPC는 이 선형 동역학 모델과 제어 입력 제약 조건 하에서, 와이어 장력 추종 오차와 경로 이탈 등을 최소화하는 비용 함수 J를 최적화하는 제어 입력 시퀀스 u_k를 찾는다.
\min_{u_0, \dots, u_{N-1}} \sum_{k=0}^{N-1} (\|y_k - y_{ref,k}\|_Q^2 + \|u_k\|_R^2)
이 연구의 수상은 신뢰성과 예측 가능성이 무엇보다 중요한 실제 산업 문제 해결에 있어, 엄밀한 모델 기반 제어 이론이 여전히 강력한 가치를 지니고 있음을 명확히 보여준다.4 이는 최근 지배적인 흐름인 종단간(end-to-end) 딥러닝 접근법과 대조를 이루며, 문제의 특성에 맞는 최적의 방법론을 선택하는 것이 중요함을 시사한다.
2.1.1.2 EDM 워크숍 수상 연구 (카이 루): 일반화와 동적 상호작용
IROS의 핵심 워크숍 중 하나인 ’환경 동역학의 중요성(Environment Dynamics Matters, EDM)’은 로봇이 정적인 환경을 넘어 동적인 세계에서 작동하기 위한 근본적인 도전을 다루며, 체화된 AI의 핵심 주제를 논의하는 장이다.8 옥스퍼드 대학의 박사과정생 카이 루(Kai Lu)는 이 워크숍에서 두 개의 상을 수상하며, 동적 상호작용과 기술 일반화라는 두 가지 중요한 연구 방향에서 큰 주목을 받았다.
- 최우수 포스터상: “행동 예측기를 이용한 반응형 객체 포획 학습(Learning to Catch Reactive Objects with a Behaviour Predictor)”
이 연구는 로봇 자신의 움직임에 반응하여 행동을 바꾸는 객체(예: 포획을 피하려는 동물)를 다루는 고난도 문제를 해결한다.8 기존 연구들이 예측 가능한 탄도 궤적을 따르는 수동적 객체에 집중했던 것과 달리, 이 연구는 로봇의 상태를 함께 관찰하여 대상의 반응을 예측하는 ‘긴밀하게 결합된(tightly coupled)’ 행동 예측기를 강화학습(RL)과 결합하는 새로운 접근법을 제시했다.10 이는 단순히 수동적인 궤적을 예측하는 것을 넘어, 상호작용의 동역학 자체를 학습하려는 시도로, 로봇이 한 단계 더 높은 수준의 예측적 행동을 수행할 수 있는 가능성을 열었다.
- 우수 실습상: “어댑터 기반 파라미터 미세조정을 통한 일반화 가능한 조작 정책 학습(Learning Generalisable Manipulation Policy with Adapter-Based Parameter Fine-Tuning)”
이 연구는 로봇 학습의 근본적인 난제인 ‘정책의 일반화(policy generalization)’ 문제를 다룬다.8 즉, 하나의 로봇이나 작업에서 학습된 기술을 어떻게 다른 로봇이나 새로운 작업에 효과적으로 이전할 것인가의 문제다. 연구의 핵심 아이디어는 LLM 분야에서 널리 사용되는 파라미터 효율적 미세조정(Parameter-Efficient Fine-Tuning, PEFT) 기법인 ’어댑터(adapter)’를 로봇 강화학습에 도입한 것이다.12 거대하고 사전 훈련된 신경망의 대부분 파라미터는 고정시킨 채, 소수의 파라미터로 구성된 작은 어댑터 모듈만을 새로 학습시킨다. 이를 통해 가상의 손(disembodied hand)이 학습한 ’서랍 열기’와 같은 추상적인 기술을 도요타 HSR과 같은 실제 로봇의 특정 기구학적 제약에 맞게 전체 모델을 재학습할 필요 없이 효율적으로 ’적응’시킬 수 있음을 보였다.12
2.1.1.3 IROS 글로벌 로보틱스 대회
이외에도 IROS 2024에서는 다양한 글로벌 로보틱스 대회의 우승팀이 발표되었다. AI 올림픽, 지구 탐사 로버 챌린지, 로봇 건설 챌린지, 다목적 조작 기술 대회 등은 로봇 기술이 학술적 탐구를 넘어 실제적이고 다양한 문제 해결에 적용되고 있음을 보여주는 좋은 예시이다.2
IROS 2024의 연구 동향은 로봇공학 분야가 현실 세계의 복잡성과 씨름하며 성숙해 가고 있음을 보여준다. 수상 연구들은 단순한 알고리즘적 신기함이 아니라, 경제적으로 중요하고 기술적으로 어려운 구체적인 문제에 대한 해결책을 제시하고 있다. 여기서 흥미로운 점은 두 가지 지배적인 패러다임, 즉 정교한 모델 기반 제어(“Harnessing with Twisting”)와 대규모 데이터 기반 학습(카이 루의 연구)이 공존하며 서로의 가치를 입증하고 있다는 것이다.
이는 분야 전체가 획일적으로 종단간 학습으로 이동하고 있는 것이 아님을 시사한다. 오히려, 잘 정의되고 고도의 정밀성이 요구되는 산업 문제에 대해서는 모델 기반 제어의 한계를 극복하려는 연구가, 예측 불가능하고 동적인 상호작용 문제에 대해서는 데이터 기반 방법론을 확장하려는 연구가 각각 심화되는 양상이다. 미래의 가장 진보된 로봇 시스템은 이 두 패러다임의 장점을 결합한 하이브리드 형태가 될 가능성이 높다. 예를 들어, 반응형 객체의 행동을 예측하는 데이터 기반 모델이 MPC와 같은 구조화된 제어기의 목표 함수나 제약 조건을 실시간으로 알려주는 형태를 상상해 볼 수 있다.
2.2 CoRL & NeurIPS 2024 사전 공개 연구: 행동으로 이어지는 거대 모델
CoRL(Conference on Robot Learning)과 NeurIPS(Conference on Neural Information Processing Systems)는 각각 11월과 12월에 개최되지만, 논문 채택 통보는 9월경에 이루어지고 NeurIPS의 경우 최종 원고 제출 마감일이 10월 30일이었다.16 이로 인해 10월은 이들 최상위 학회에서 발표될 최신 연구들이 arXiv 등을 통해 대중에게 처음 공개되는 중요한 시기였다. 이 논문들은 2025년 AI 및 로봇 연구의 방향을 결정지을 핵심적인 아이디어들을 담고 있다.
2.2.1 주목할 만한 기초 모델 연구: OpenVLA와 차세대 제어 패러다임
이 시기에 공개된 연구들 중 가장 두드러진 흐름은 거대 언어 모델(LLM)의 성공을 로봇 제어에 직접적으로 이식하려는 ‘파운데이션 모델’ 접근법이었다.
2.2.1.1 “OpenVLA: An Open-Source Vision-Language-Action Model” (CoRL 2024)
이 논문은 로봇 조작(manipulation)을 위한 70억 개(7B) 파라미터 규모의 오픈소스 시각-언어-행동(Vision-Language-Action, VLA) 모델인 OpenVLA를 제시하며 큰 반향을 일으켰다.18 OpenVLA의 아키텍처는 Llama 2 LLM을 기반으로 하며, DINOv2와 SigLIP이라는 두 개의 강력한 시각 인코더로부터 추출된 특징을 융합하여 시각 정보를 처리한다.20 이 모델은 97만 개에 달하는 실제 로봇 조작 궤적 데이터셋인 Open X-Embodiment 데이터로 훈련되었다.20
OpenVLA의 가장 큰 기여는 Google의 RT-2-X와 같은 폐쇄적인(closed-source) 거대 기업 모델에 필적하는 성능을 보이면서도, 모델 자체와 학습 파이프라인 전체를 오픈소스로 공개했다는 점이다.20 이는 로봇 파운데이션 모델 연구의 민주화에 크게 기여하며, 학계와 중소 규모 연구 그룹이 이 분야에 진입할 수 있는 중요한 발판을 마련했다.24 성능 면에서도 OpenVLA는 7배나 더 큰 RT-2-X 모델을 능가하는 결과를 보였으며, 새로운 로봇이나 작업에 대해 LoRA와 같은 PEFT 기법을 통해 효율적으로 미세조정될 수 있음을 입증했다.22
2.2.1.2 “Humanoid Locomotion as Next Token Prediction” (NeurIPS 2024)
이 연구는 로봇 제어의 패러다임을 생성 모델의 언어로 완전히 재정의하는 혁신적인 관점을 제시했다.25 이 논문은 복잡한 휴머노이드 로봇의 보행 제어 문제를 LLM이 다음 단어를 예측하는 것과 동일한 ‘다음 토큰 예측(next token prediction)’ 문제로 치환했다.28
방법론의 핵심은 관절 위치, IMU 센서 데이터, 모터 명령 등 로봇의 센서-모터 데이터를 시퀀스 토큰으로 변환하고, 이를 인과적 트랜스포머(causal transformer)를 이용해 자기회귀적(autoregressively)으로 학습시키는 것이다.28 이 접근법의 가장 강력한 점은 데이터 소스의 다양성에 있다. 기존 제어기에서 생성된 궤적 데이터뿐만 아니라, 모션 캡처 데이터, 심지어는 로봇의 행동(action) 정보가 없는 유튜브의 일반인 보행 영상까지 학습에 활용할 수 있다.28 이는 영상 데이터에서 행동에 해당하는 토큰을 ‘마스킹(masking)’ 처리함으로써 가능해진다.
결과는 놀라웠다. 이 모델은 단 27시간 분량의 보행 데이터만으로 훈련되었음에도 불구하고, 실제 크기의 휴머노이드 로봇을 샌프란시스코의 야외 환경에서 사전 적응 없이(zero-shot) 걷게 하는 데 성공했다.26 이는 복잡한 물리적 제어 문제조차도 대규모 시퀀스 모델링의 틀 안에서 해결될 수 있음을 보여주는 강력한 증거이다.
2.2.1.3 기타 주목할 만한 NeurIPS 논문
- “xLSTM: Extended Long Short-Term Memory”: 트랜스포머의 아성에 도전하는 중요한 아키텍처 혁신으로, 지수 게이팅(exponential gating)과 행렬 메모리(matrix memory)를 도입하여 기존 LSTM의 한계를 극복하고, 트랜스포머 및 상태 공간 모델(SSM)과 경쟁력 있는 성능 및 확장성을 보였다.25
- “Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction”: 이미지에 대한 자기회귀 모델링을 기존의 ‘다음 토큰’ 예측에서 ‘다음 스케일(next-scale)’ 예측으로 재정의하여, 자기회귀 모델이 처음으로 확산 트랜스포머(Diffusion Transformer)를 능가하는 성능을 달성하고 LLM과 유사한 스케일링 법칙(scaling laws)을 따름을 보였다.25 이는 미래 로봇 비전 시스템의 아키텍처에 중요한 시사점을 제공한다.
CoRL과 NeurIPS에서 사전 공개된 연구들은 로봇공학 분야가 NLP와 컴퓨터 비전의 성공을 이끈 ’파운데이션 모델’이라는 통일된 가설 아래 빠르게 수렴하고 있음을 보여준다. 그 핵심 아이디어는, 거대하고 다양한 데이터로 사전 훈련된 단일 모델이 여러 로봇과 작업에 적용될 수 있는 ‘일반주의자(generalist)’ 정책의 역할을 할 수 있다는 것이다.
이러한 흐름 속에서 각 연구의 역할은 명확해진다. OpenVLA는 로봇공학계의 ’BERT’와 같이, 누구나 사용하고 개선할 수 있는 강력한 오픈소스 기반 모델의 역할을 한다. “Humanoid Locomotion as Next Token Prediction” 연구는 이러한 패러다임의 개념적 극단을 보여주며, 행동과 제어마저도 언어, 비전과 같은 생성적 시퀀스 모델링 문제로 귀결될 수 있음을 증명했다. 그리고 IROS에서 발표된 카이 루의 어댑터 기반 미세조정 연구는 이 새로운 패러다임의 실질적인 ’사용법’을 제시한다. 즉, 거대한 파운데이션 모델을 매번 새로 훈련할 필요 없이, 효율적으로 특정 목적에 맞게 적응시킬 수 있는 길을 연 것이다.
이러한 변화는 로봇 연구의 병목 지점이 알고리즘 설계에서 대규모의 다양한 멀티-로봇 데이터셋(Open X-Embodiment와 같은)을 수집하고 정제하는 데이터 엔지니어링으로 이동하고 있음을 의미한다. 모델 아키텍처만큼이나 데이터의 질과 양이 중요해지는 시대가 도래한 것이다. 이는 향후 기본적인 로봇 기술의 보편화를 가속화할 것이다. 단일 모델을 여러 로봇에 적용할 수 있게 되면, 연구와 산업의 가치는 독자적인 제어기를 개발하는 것에서 독점적인 데이터셋을 구축하거나, 이러한 일반화된 ’두뇌’를 가장 잘 활용할 수 있는 새로운 하드웨어를 설계하는 것으로 이동하게 될 것이다.
3. 산업계 R&D 지형 변화: 주요 기업 발표 분석
학계에서 제시된 혁신적인 이론과 패러다임은 산업계의 투자를 통해 현실 세계의 기술로 구체화된다. 2024년 10월, 주요 로봇 및 AI 기업들은 이러한 학문적 흐름에 발맞추어 자사의 전략적 방향을 명확히 하는 중요한 발표들을 내놓았다. 이 섹션에서는 보스턴 다이내믹스와 도요타 연구소의 기념비적인 협력부터 OpenAI, Meta, Google 등 거대 AI 연구소의 동향까지, 산업 R&D 지형의 변화를 분석한다.
3.1 보스턴 다이내믹스와 도요타 연구소의 협력: 범용 휴머노이드를 향한 이정표
2024년 10월 16일, 현대자동차 그룹의 보스턴 다이내믹스와 도요타 연구소(Toyota Research Institute, TRI)는 중대한 연구 파트너십을 발표했다.37 이 협력은 세계에서 가장 진보된 휴머노이드 하드웨어(완전 전동식 아틀라스)와 로봇 학습 분야를 선도하는 AI 연구 그룹(TRI)의 결합이라는 점에서 업계의 지대한 관심을 모았다.39
3.1.1 기술 심층 탐구: 거대 행동 모델(LBM)과 확산 정책
파트너십의 기술적 핵심은 TRI의 ’거대 행동 모델(Large Behavior Models, LBMs)’을 아틀라스 로봇에 적용하여 범용 휴머노이드 개발을 가속화하는 것이다.37 LBM은 TRI가 사용하는 로보틱스 파운데이션 모델의 명칭으로, 시각 및 언어 조건에 따라 다양한 조작 작업을 수행하는 것을 목표로 한다.37
- 확산 정책(Diffusion Policy): LBM의 기반 기술 중 하나는 TRI가 선도적으로 연구해 온 ’확산 정책’이다.37 이는 이미지 생성 분야에서 큰 성공을 거둔 확산 모델(diffusion models)의 원리를 로봇 제어에 적용한 것으로, 소수의 인간 시연 데이터만으로도 로봇이 새로운 기술을 빠르고 강건하게 학습할 수 있게 한다.38 구체적으로는 4억 5천만(450M) 개의 파라미터를 가진 확산 트랜스포머(Diffusion Transformer) 아키텍처와 흐름 정합(flow-matching) 목적 함수를 사용한다.41
- 데이터 수집 및 훈련 루프: 연구팀은 최첨단 가상현실(VR) 기반 원격 조종 시스템을 사용하여 실제 아틀라스 로봇으로부터 고품질의 시연 데이터를 수집한다.41 이 데이터는 LBM을 훈련시키는 데 사용되며, 훈련된 모델은 다시 로봇에 배포되어 성능을 검증하고 추가 데이터를 수집하는 ‘데이터 플라이휠(data flywheel)’ 효과를 창출한다. 모델은 로봇의 고유수용성감각(proprioception) 정보, 이미지, 그리고 언어 명령을 입력받아 미래의 행동 시퀀스를 예측한다.43
- 전신 제어(Whole-Body Control): 이 프로젝트의 중요한 기술적 돌파구 중 하나는 단일 LBM이 보행과 조작을 별개의 문제로 다루지 않고, 로봇의 손과 발을 거의 동일하게 취급하며 전신을 직접 제어한다는 점이다.40 이는 기존의 분리된 제어 스택을 통합하여 훨씬 더 유연하고 통합적인 움직임을 가능하게 한다.
이 협력은 테슬라의 옵티머스(Optimus)와 같은 경쟁자들의 부상에 대한 직접적인 대응으로 해석된다.38 이는 범용 휴머노이드 개발 경쟁이 본격화되었으며, 그 성공 전략은 최첨단 하드웨어와 대규모 생성 AI 기반 제어 모델의 융합에 있다는 업계의 공감대를 보여준다. 목표는 사람이 일일이 프로그래밍하는 방식에서 벗어나, 데이터로부터 빠르고 강건하게 기술을 습득하는 방식으로의 전환이다.40
3.2 주요 AI 연구소 동향: OpenAI, Meta, Google
거대 AI 연구소들은 각기 다른 전략을 통해 미래 AI 생태계에서의 주도권을 확보하고자 노력하고 있다. 10월의 발표들은 이들의 차별화된 접근법을 명확히 보여준다.
3.2.1 OpenAI: 안전과 악의적 사용 대응에 집중
OpenAI는 10월 9일 “영향력 작전 및 사이버 작전 보고서(Influence and Cyber Operations Report)“를 발표하며 기술 개발과 함께 책임 있는 AI 거버넌스에 대한 리더십을 강조했다.45 이 보고서는 국가 연계 행위자들이 AI를 콘텐츠 생성, 멀웨어 디버깅, 스피어 피싱 등에 어떻게 활용하는지를 분석하고, OpenAI가 20개 이상의 악의적 작전을 탐지하고 차단했음을 밝혔다.45
보고서의 핵심 결론은, 아직까지 AI가 적대 세력에게 ’의미 있는 돌파구’를 제공하지는 못했으며, AI를 활용한 영향력 작전 캠페인들이 대규모의 유의미한 참여를 이끌어내는 데 실패했다는 것이다.45 이러한 위협 정보를 투명하게 공개하는 것은 강력한 AI 기술을 개발하는 기업으로서 사회적 운영 허가(social license to operate)를 확보하기 위한 필수적인 활동이며, OpenAI가 이 분야의 규범을 선도하려는 의지를 보여준다.
3.2.2 Meta: 생성 미디어와 AR/VR 생태계 구축
Meta는 10월에 개최된 ‘커넥트 2024(Connect 2024)’ 행사를 통해 차세대 인간-컴퓨터 상호작용(HCI) 생태계를 장악하려는 포괄적인 전략을 드러냈다.48
- “무비젠(Movie Gen)”: 텍스트 프롬프트로부터 고화질 HD 비디오와 동기화된 오디오를 생성하고 편집할 수 있는 파운데이션 모델 제품군을 공개했다.49 이는 OpenAI의 Sora에 대한 Meta의 직접적인 응답이자, 창작 AI 분야에 대한 대대적인 투자이다.
- “바이브(Vibes)” 피드: AI가 생성한 짧은 형식의 비디오만을 위한 전용 피드를 새롭게 선보였다.52 이는 자사의 AI 도구를 홍보하는 동시에, AI가 생성한 저품질 콘텐츠(“AI slop”)를 인스타그램 릴스와 같은 주요 피드로부터 격리하려는 이중 전략으로 풀이된다.
- 하드웨어 및 플랫폼: 증강현실(AR) 안경 프로토타입 ’오리온(Orion)’과 보급형 혼합현실(MR) 헤드셋 ’퀘스트 3S(Quest 3S)’를 발표하며, Meta의 AI 개발이 메타버스라는 하드웨어 비전과 긴밀하게 연결되어 있음을 재확인했다.48
- 비즈니스 AI: 자사 플랫폼의 소매업자를 위한 챗봇 비서 ’비즈니스 AI’를 출시했다.53 이는 고객과의 대화를 판매와 비즈니스 통찰로 직접 연결함으로써 Meta의 핵심 광고 사업 모델을 AI 시대에 맞게 확장하려는 시도이다.
3.2.3 Google: 생활 속에 스며드는 보편적 AI 통합
Google의 10월 발표들은 이미 수십억 명이 사용하는 자사의 핵심 제품군에 AI를 광범위하고 실용적으로 통합하는 데 초점이 맞춰져 있었다.54
- 검색의 AI 개요(AI Overviews in Search): 검색 결과 상단에 AI가 생성한 요약을 제공하는 기능을 100개 이상의 국가로 확대하여, 매달 10억 명 이상의 사용자에게 도달하게 했다.55 이는 Google의 핵심 제품을 근본적으로 바꾸는 중대한 변화이다.
- AI 조직화 검색 결과(AI-Organized Search Results): 미국에서 기존의 파란색 링크 목록을 넘어, AI가 검색어와 관련된 다양한 유형의 콘텐츠를 큐레이션하여 한 페이지 전체에 보여주는 새로운 검색 결과 페이지(SERP)를 선보였다.57
이러한 발표들은 Google이 최첨단 모델 개발 경쟁(Gemini, Gemma 등)과 더불어, 자사가 보유한 압도적인 배포 능력을 활용하여 AI 기능을 사용자 경험에 가장 깊숙이 통합시키는 전략을 구사하고 있음을 보여준다.
산업계의 이러한 움직임들을 종합해 보면, ’AI 경쟁’은 단일한 경주가 아니라 여러 전문화된 분야로 분화되고 있음을 알 수 있다. 보스턴 다이내믹스와 도요타는 물리적 지능이라는 ‘하드웨어 체화(hard embodiment)’ 문제에 집중하고 있다. Meta는 스크린과 안경을 매개로 한 인간의 소통, 창의성, 사회적 상호작용의 세계를 겨냥하고 있다. Google은 세계의 정보를 조직화하고 AI를 통해 종합하여 제공하는 정보 합성의 경쟁에 주력하고 있다. 그리고 OpenAI는 이 모든 것의 기반이 되는 핵심 모델을 제공함과 동시에, 그 기술의 위험을 관리하는 거버넌스 리더의 역할을 자처하고 있다.
이러한 전문화는 미래 AI 생태계가 여러 기업이 각기 다른 계층을 담당하는 형태로 발전할 것임을 시사한다. 예를 들어, 미래의 한 로봇 회사는 OpenAI의 언어 모델을 Google의 클라우드 위에서 구동하여, 보스턴 다이내믹스와 유사한 로봇을 제어하고, Meta와 같은 AR 인터페이스를 통해 고객과 상호작용하는 시스템을 구축하게 될 수도 있다.
4. arXiv를 통해 본 최신 연구 흐름
동료 심사라는 필터를 거치기 전, 가장 날것의 아이디어들이 자유롭게 공유되는 arXiv는 연구 커뮤니티의 기저에 흐르는 생각과 곧 다가올 미래의 트렌드를 가장 먼저 엿볼 수 있는 창이다. 2024년 10월 한 달 동안 로봇공학(cs.RO) 분야에만 951편의 논문이 제출되었다는 사실은 이 분야의 연구 활동이 얼마나 폭발적으로 이루어지고 있는지를 단적으로 보여준다.58
4.1 로보틱스(cs.RO) 분야 핵심 주제 분석
arXiv에 공개된 로봇공학 논문들은 IROS, CoRL 등 최상위 학회에서 제시된 거대 담론들이 어떻게 구체적인 하위 연구 주제들로 확산되고 있는지를 보여준다.
- 다양한 데이터로부터의 학습(Learning from Diverse Data): 파운데이션 모델의 성공이 데이터의 중요성을 부각시키면서, 비전통적인 데이터 소스를 활용하려는 연구가 급증하고 있다. “EgoMimic: 자기중심적 비디오를 통한 모방 학습 확장(Scaling Imitation Learning via Egocentric Video)” 58과 같은 연구는 인터넷에 존재하는 방대한 양의 1인칭 시점 비디오로부터 인간의 조작 기술을 학습하려는 시도이다. 이는 NeurIPS에서 발표된 “Humanoid Locomotion as Next Token Prediction” 연구가 유튜브 비디오를 활용한 것과 정확히 같은 맥락이다. 이는 로봇 학습의 데이터 병목을 해결하기 위해, 구조화된 실험실 데이터가 아닌 ‘세상에 존재하는(in-the-wild)’ 데이터를 활용하려는 거대한 흐름을 형성하고 있다.
- 다중 모드 감지(Multi-Modal Sensing): 시각 정보만으로는 물리적 세계와의 정교한 상호작용에 한계가 있다는 인식이 확산되면서, 여러 센서 정보를 융합하려는 연구가 주류를 이루고 있다. “3D-ViTac: 시각-촉각 감지를 이용한 미세 조작 학습(Learning Fine-Grained Manipulation with Visuo-Tactile Sensing)” 58이나 “교묘한 삽입 작업을 위한 시각과 촉각의 상호작용 분석(Analysing the Interplay of Vision and Touch for Dexterous Insertion Tasks)” 58과 같은 논문들은 특히 접촉이 풍부한(contact-rich) 작업에서 시각과 촉각 정보의 결합이 필수적임을 보여준다.
- 계획 수립에서의 파운데이션 모델 및 LLM 활용: LLM을 단순히 인간과의 소통 인터페이스로 사용하는 것을 넘어, 로봇의 작업 계획 및 추론(reasoning) 엔진으로 활용하려는 연구가 다수 등장했다. “SuctionPrompt: 비전-언어 모델을 활용한 시각 보조 로봇 흡입 파지” 58와 같은 제목은 비전-언어 모델(VLM)이 로봇의 인식 및 행동 결정 과정에 깊숙이 통합되고 있음을 시사한다. 또한 “체화된 RAG(EmbodiedRAG)” 58와 같은 개념의 등장은, LLM의 약점인 최신 정보 부재나 환각(hallucination) 문제를 보완하기 위해 외부 지식 데이터베이스를 실시간으로 검색하여 참조하는 검색 증강 생성(Retrieval-Augmented Generation) 기술이 로봇의 동적인 3D 환경 이해 및 계획 수립에 적용되고 있음을 보여준다.
4.2 인공지능(cs.AI) 분야의 새로운 아키텍처 및 방법론
로봇공학의 발전은 근간이 되는 AI 기술의 혁신과 불가분의 관계에 있다. cs.AI 분야의 최신 연구들은 현재의 기술적 한계를 넘어서려는 시도들을 보여준다.
- 트랜스포머를 넘어서(Beyond the Transformer): 트랜스포머가 현재 AI 모델의 표준 아키텍처이지만, 그 대안을 찾으려는 연구가 활발히 진행 중이다. NeurIPS에서 발표된 “xLSTM“이 대표적인 예이며, 이 외에도 상태 공간 모델(SSM)과 같은 재귀적(recurrent) 구조의 모델들이 트랜스포머의 장점인 병렬 처리 능력과 긴 시퀀스 처리 능력을 결합하려는 시도로 주목받고 있다.62 Pathway 연구소의 “Dragon Hatchling (BDH) 아키텍처“는 LLM과 생물학적으로 더 타당한 뇌 모델 사이의 간극을 메우려는 시도로, 기존 모델과 다른 계산 방식을 탐구한다.61
- 에이전트 AI와 자기 개선(Agentic AI and Self-Improvement): 정적으로 훈련된 모델을 넘어, 환경과의 상호작용을 통해 스스로 학습하고 개선하는 ’에이전트 AI’가 핵심 연구 주제로 부상했다. “ReasoningBank: 추론 메모리를 통한 에이전트 자기 진화 확장” 61 연구는 에이전트가 성공과 실패 경험 모두로부터 일반화 가능한 추론 전략을 추출하여 지속적으로 학습하는 메모리 프레임워크를 제안한다. 이는 AI가 정적인 도구에서 동적인 학습 주체로 변화하고 있음을 보여준다.
- 심리측정학적 평가(Psychometric Evaluation): 에이전트 AI가 복잡한 사회적 상호작용을 수행하게 되면서, 단순히 작업 성공률만으로는 그 성능을 온전히 평가하기 어려워졌다. 이에 따라, 에이전트에게 특정 ’페르소나’를 부여하고 그에 따른 인지적 노력이나 행동 패턴과 같은 심리측정학적 프로파일을 측정하여, AI의 사회적 행동을 더 깊이 이해하고 제어하려는 새로운 평가 방법론이 제안되었다.63 이는 AI 정렬(AI alignment) 연구에 있어 중요한 진전이다.
arXiv의 사전 공개 논문들은 최상위 학회에서 검증된 거대 패러다임이 연구 커뮤니티 전반으로 어떻게 확산되고 구체화되는지를 보여주는 바로미터이다. OpenVLA와 같은 연구가 대규모 이종 데이터로부터의 학습이 효과가 있음을 증명하자, “어디서 더 많은 데이터를 얻을 수 있는가?“라는 질문이 자연스럽게 뒤따른다. 이는 EgoMimic과 같이 세상에 존재하는 방대한 비디오 데이터를 활용하려는 연구로 이어진다. 모델이 일반화될수록, 병목은 인식(perception) 단계로 옮겨간다. 이는 시각과 촉각을 융합하는 등 다중 모드 감지 연구의 급증을 설명한다.
이러한 흐름 속에서 로봇 시스템에서 LLM의 역할이 점차 명확해지고 있다. LLM은 더 이상 단순한 사용자 인터페이스가 아니라, 작업 분해, 계획, 추론을 담당하는 중앙 ’인지 엔진’으로 자리매김하고 있다. 그리고 이 인지 엔진을 중심으로 인식과 제어를 위한 전문화된 모듈들이 연결되는 아키텍처가 부상하고 있다. ‘EmbodiedRAG’ 개념은 이러한 아키텍처의 완벽한 예시이다.
결론적으로, 로봇공학 분야는 ‘로보틱스 소프트웨어 2.0’ 시대로 빠르게 진입하고 있다. 이 새로운 시대에는 모든 행동을 명시적으로 코딩하는 대신, 사전 훈련된 모델들을 조합하고 미세조정함으로써 시스템을 구축하게 될 것이다. 이는 유능한 로봇을 만드는 진입 장벽을 극적으로 낮추는 동시에, 데이터 큐레이션, 모델 평가, 시스템 통합이라는 새로운 차원의 전문성을 요구하게 될 것이다.
5. 종합 분석 및 2025년 연구 전망
2024년 10월 한 달간 발표된 AI 및 로봇 분야의 연구 성과들을 종합해 볼 때, 이 시기는 거대 규모 AI가 추상적인 디지털 공간을 넘어 물리적 세계로 ’체화(embodiment)’되는 과정이 본격화된 결정적인 순간으로 평가할 수 있다. 이러한 패러다임의 전환은 학계의 검증, 산업계의 대규모 투자, 그리고 관련 생태계의 동시 발전을 통해 다각적으로 확인되었다.
5.1 핵심 발견의 종합
- 학술적 검증: IROS, CoRL, NeurIPS와 같은 최상위 학회들에서 파운데이션 모델의 원리를 물리적 제어에 성공적으로 적용한 논문들이 대거 발표되고 주요 상을 수상했다. “Humanoid Locomotion as Next Token Prediction“은 제어 문제를 생성 모델링 문제로 재정의했으며, “OpenVLA“는 강력한 범용 조작 정책을 오픈소스로 공개하여 연구의 지평을 넓혔다. 카이 루의 연구는 동적 상호작용과 효율적인 모델 적응에 대한 구체적인 방법론을 제시했다.
- 산업계의 투자: 보스턴 다이내믹스와 도요타 연구소의 기념비적인 파트너십은 범용 휴머노이드의 미래가 최첨단 하드웨어와 거대 행동 모델의 결합에 있다는 산업계의 확신을 보여주는 수십억 달러 규모의 베팅이다. 이는 학계의 이론적 진보가 실제 산업 전략의 핵심으로 자리 잡았음을 의미한다.
- 생태계의 발전: Meta, Google, OpenAI와 같은 거대 기업들은 이 새로운 AI 시대를 위한 플랫폼, 애플리케이션, 그리고 안전 프레임워크를 구축하는 데 주력하고 있다. Meta의 ’Movie Gen’과 AR/VR 하드웨어는 생성 AI가 주도할 새로운 콘텐츠 생태계를, Google의 검색 엔진 혁신은 AI가 정보와 상호작용하는 방식을 근본적으로 바꾸고 있음을 보여준다. OpenAI의 위협 보고서는 기술 발전과 함께 책임 있는 거버넌스를 구축하려는 노력을 상징한다.
5.2 미해결 과제와 미래의 질문
이러한 폭발적인 진보 속에서도 중요한 긴장 관계와 미해결 과제가 존재한다. 복잡하고 방대한 데이터를 요구하는 종단간 학습 모델의 불투명성과 예측 불가능성은, 특히 산업 및 안전이 중요한(safety-critical) 분야에서 요구되는 신뢰성, 안정성, 예측 가능성과 상충될 수 있다. IROS에서 산업 로봇 최우수 논문상을 수상한 “Harnessing with Twisting” 연구가 정교한 모델 기반 제어 이론에 기반하고 있다는 점은, 고전적인 제어 이론이 결코 구시대의 유물이 아님을 명확히 보여준다.
따라서 2025년 이후 연구의 핵심 질문은 이 두 패러다임, 즉 데이터 기반의 거대 모델과 엄밀한 모델 기반 제어가 어떻게 ‘하이브리드’ 형태로 융합될 것인가에 있다. 데이터 기반 모델이 실시간으로 환경의 불확실성과 동역학을 추정하고, 이를 모델 기반 제어기의 파라미터나 제약 조건으로 제공하여 강건성과 최적성을 동시에 달성하는 방식이 유력한 연구 방향이 될 것이다.
5.3 년 연구 전망
2024년 10월의 동향을 바탕으로, 2025년 AI 및 로봇 연구는 다음과 같은 방향으로 전개될 것으로 예측된다.
- 데이터의 재부상: OpenVLA와 같은 모델의 성공은 로봇공학 분야에서 ’데이터가 새로운 석유’라는 명제를 다시 한번 증명했다. 2025년에는 로봇 데이터 수집, 고품질 시뮬레이션 환경 구축, 데이터 정제 및 공유를 위한 연구 및 상업적 노력이 폭발적으로 증가할 것이다. 데이터셋의 규모와 다양성이 모델의 성능을 결정하는 핵심 변수가 될 것이다.
- ’VLA 파운드리’의 등장: 소수의 거대 언어 모델(LLM)이 NLP 연구의 기반이 되었듯이, 로봇공학 분야에서도 소수의 강력한 오픈소스 VLA 모델(OpenVLA가 그 시작이 될 수 있다)이 사실상의 표준으로 자리 잡을 것이다. 대부분의 연구는 이들 ’VLA 파운드리’에서 제공하는 모델을 기반으로 특정 작업이나 로봇에 맞게 미세조정하고 적응시키는 방향으로 전개될 것이며, 이는 관련 연구의 ’캄브리아기 대폭발’을 촉발할 것이다.
- 하드웨어-소프트웨어 공동 설계: 범용 AI ’두뇌’가 점차 상용화되고 접근성이 높아짐에 따라, 하드웨어 혁신이 다시금 중요해질 것이다. 기업들은 이러한 거대 모델의 능력을 최대한 활용하기 위해 설계된 새로운 센서(특히 촉각 센서), 액추에이터, 그리고 로봇의 형태(morphology)를 개발하는 데 집중할 것이다. 소프트웨어의 일반화가 하드웨어의 특성화를 촉진하는 역설적인 상황이 발생할 수 있다.
- 안전과 정렬 연구의 주류화: 파운데이션 모델로 구동되는 로봇이 실험실을 벗어나 실생활 공간으로 들어오면서, 체화된 에이전트의 안전성, 검증, 그리고 인간의 의도와의 정렬(alignment)에 대한 연구가 더 이상 이론적인 논의에 머무르지 않고, 실제 적용을 위한 핵심적인 주류 분야로 부상할 것이다. 로봇의 예측 불가능한 행동을 제한하고, 안전을 보장하며, 그 행동의 이유를 설명하는 기술이 상용화의 필수 조건이 될 것이다.
결론적으로, 2024년 10월은 AI가 물리적 세계와 상호작용하는 방식에 대한 근본적인 청사진이 제시된 시기였다. 앞으로의 과제는 이 청사진을 현실 세계에서 안전하고 신뢰할 수 있으며 유용하게 구현하는 것이 될 것이다.
6. 참고 자료
- Notable Robotics Conferences Happening in 2024 & 2025 - PatWorld, https://patworld.com/us/news/notable-robotics-conferences-happening-in-2024/
- IROS 2024, http://iros2024-abudhabi.org/
- Conference Paper Received Best Paper Award for Industrial Robotics Research, https://msc.berkeley.edu/news/irosaward-2024.html
- [2410.10729] Harnessing with Twisting: Single-Arm Deformable Linear Object Manipulation for Industrial Harnessing Task - arXiv, https://arxiv.org/abs/2410.10729
- Deformable Linear Objects Manipulation With Online Model Parameters Estimation, https://cris.unibo.it/retrieve/fcb085b3-ac7a-45c1-a970-a28af58865a4/Deformable_Linear_Objects_Manipulation_With_Online_Model_Parameters_Estimation.pdf
- RSS 2021 - AI Best Paper Awards, https://aibestpape.rs/venue/?id=RSS
- UC Berkeley - eScholarship, https://escholarship.org/content/qt2ng2w3ch/qt2ng2w3ch.pdf
- Kai Lu wins two robotics awards at IROS 2024, https://www.cs.ox.ac.uk/news/2402-full.html
- Wolfson College Student Kai Lu Wins Two Robotics Awards at IROS 2024, https://www.wolfson.ox.ac.uk/news/wolfson-college-student-kai-lu-wins-two-robotics-awards-at-iros-2024/
- Learning to Catch Reactive Objects with a Behavior Predictor, https://kl-research.github.io/dyncatch
- Learning to Catch Reactive Objects with a Behavior Predictor - ResearchGate, https://www.researchgate.net/publication/380369008_Learning_to_Catch_Reactive_Objects_with_a_Behavior_Predictor
- Learning Generalizable Manipulation Policy with Adapter-Based Parameter Fine-Tuning, https://www.researchgate.net/publication/380368983_Learning_Generalizable_Manipulation_Policy_with_Adapter-Based_Parameter_Fine-Tuning
- Parameter-Efficient Fine-Tuning for Large Models: A Comprehensive Survey - OpenReview, https://openreview.net/pdf?id=lIsCS8b6zj
- Learning Generalizable Manipulation Policy with Adapter-Based …, https://kl-research.github.io/genrob
- Kai Lu, https://kailucs.github.io/files/CV_2024_Jul3_Kai_Lu.pdf
- NeurIPS 2024 Call for Papers, https://neurips.cc/Conferences/2024/CallForPapers
- 2024 Dates and Deadlines - NeurIPS 2025, https://nips.cc/Conferences/2024/Dates
- CoRL 2024 Conference | OpenReview, https://openreview.net/group?id=robot-learning.org/CoRL/2024/Conference
- CoRL 2024 Accepted Paper List - Paper Copilot, https://papercopilot.com/paper-list/corl-paper-list/corl-2024-paper-list/
- OpenVLA: An Open-Source Vision-Language-Action Model, https://proceedings.mlr.press/v270/kim25c.html
- OpenVLA: An Open-Source Vision-Language-Action Model - arXiv, https://arxiv.org/html/2406.09246v3
- OpenVLA: An Open-Source Vision-Language-Action Model, https://openvla.github.io/
- (PDF) OpenVLA: An Open-Source Vision-Language-Action Model - ResearchGate, https://www.researchgate.net/publication/381404911_OpenVLA_An_Open-Source_Vision-Language-Action_Model
- OpenVLA: An open-source vision-language-action model for robotic manipulation. - GitHub, https://github.com/openvla/openvla
- NeurIPS 2024 Accepted Paper List - Paper Copilot, https://papercopilot.com/paper-list/neurips-paper-list/neurips-2024-paper-list/
- Humanoid Locomotion as Next Token Prediction - arXiv, https://arxiv.org/html/2402.19469v1
- Humanoid Locomotion as Next Token Prediction - OpenReview, https://openreview.net/forum?id=GrMczQGTlA&referrer=%5Bthe%20profile%20of%20Trevor%20Darrell%5D(%2Fprofile%3Fid%3D~Trevor_Darrell2)
- Humanoid Locomotion as Next Token Prediction - NIPS, https://proceedings.neurips.cc/paper_files/paper/2024/file/90afd20dc776bc8849c31d61a0763a0b-Paper-Conference.pdf
- Humanoid Locomotion as Next Token Prediction, https://humanoid-next-token-prediction.github.io/
- [PDF] xLSTM: Extended Long Short-Term Memory - Semantic Scholar, https://www.semanticscholar.org/paper/e2a6ffba64331989858e5078bfb8277343aa90bd
- xLSTM: Extended Long Short-Term Memory - OpenReview, https://openreview.net/forum?id=ARAxPPIAhq¬eId=gra7vHnb0q
- xLSTM: Extended Long Short-Term Memory - OpenReview, https://openreview.net/pdf?id=ARAxPPIAhq
- xLSTM: Extended Long Short-Term Memory - arXiv, https://arxiv.org/pdf/2405.04517
- Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction, https://arxiv.org/html/2404.02905v1
- Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction, https://neurips.cc/virtual/2024/poster/94115
- Visual Autoregressive Modeling: Scalable Image Generation … - NIPS, https://proceedings.neurips.cc/paper_files/paper/2024/file/9a24e284b187f662681440ba15c416fb-Paper-Conference.pdf
- Boston Dynamics & TRI Announce Partnership | Boston Dynamics, https://bostondynamics.com/news/boston-dynamics-toyota-research-institute-announce-partnership-to-advance-robotics-research/
- Toyota joins with Hyundai’s Boston Dynamics on AI-powered robots …, https://www.japantimes.co.jp/business/2024/10/17/companies/toyota-ai-robots-partnership/
- Boston Dynamics - Wikipedia, https://en.wikipedia.org/wiki/Boston_Dynamics
- AI-Powered Robot by Boston Dynamics and Toyota Research …, https://pressroom.toyota.com/ai-powered-robot-by-boston-dynamics-and-toyota-research-institute-takes-a-key-step-towards-general-purpose-humanoids/
- Boston Dynamics and TRI use large behavior models to train Atlas humanoid, https://www.therobotreport.com/boston-dynamics-tri-use-large-behavior-models-train-atlas-humanoid/
- Large Behavior Models | Toyota Research Institute, https://www.tri.global/our-work/large-behavior-models
- Large Behavior Models and Atlas Find New Footing | Boston …, https://bostondynamics.com/blog/large-behavior-models-atlas-find-new-footing/
- Large Behavior Model Enables Humanoid Robot to Multi-Task - Assembly Magazine, https://www.assemblymag.com/articles/99518-large-behavior-model-enables-humanoid-robot-to-multi-task
- OpenAI - Influence and Cyber Operations Report (October 2024) - MailGuard, https://www.mailguard.com.au/blog/key-findings-from-the-openai-influence-and-cyber-operations-report-october-2024
- An update on disrupting deceptive uses of AI - OpenAI, https://openai.com/global-affairs/an-update-on-disrupting-deceptive-uses-of-ai/
- How OpenAI is approaching 2024 worldwide elections, https://openai.com/index/how-openai-is-approaching-2024-worldwide-elections/
- Meta Connect 2024 Summary: Unlocking the Future of AI, AR, and VR - LineZero, https://www.linezero.com/blog/meta-connect-2024-summary
- The biggest updates in social media | October 2024 - Adobe, https://www.adobe.com/express/learn/blog/social-media-news-october-2024
- Meta advances generative AI video creation with Movie Gen - SiliconANGLE, https://siliconangle.com/2024/10/04/meta-advances-generative-ai-video-creation-movie-gen/
- How Meta Movie Gen could usher in a new AI-enabled era for content creators, https://ai.meta.com/blog/movie-gen-media-foundation-models-generative-ai-video/
- Meta launches ‘Vibes’ feed dedicated to AI videos - RouteNote Blog, https://routenote.com/blog/meta-launches-vibes-feed-dedicated-to-ai-videos/
- Meta’s New Business AI Wants to Be Your 24/7 Sales Agent - Success Magazine, https://www.success.com/meta-business-ai-sales-agent/
- 7 pieces of AI news we announced in October - Google Blog, https://blog.google/technology/ai/google-ai-updates-october-2024/
- AI Overviews in Google Search expanding to more than 100 countries, https://blog.google/products/search/ai-overviews-search-october-2024/
- October 2024 Google algorithm and search industry updates - Impression Digital, https://www.impressiondigital.com/blog/october-2024-google-algorithm-and-search-industry-updates/
- Google’s AI-Powered Search October Updates - Noble Studios, https://noblestudios.com/seo/googles-ai-powered-search-updates/
- Robotics Oct 2024 - arXiv, http://arxiv.org/list/cs.RO/2024-10?skip=750&show=1000
- Robotics Oct 2024 - arXiv, http://arxiv.org/list/cs.RO/2024-10?skip=950&show=50
- Robotics Oct 2024 - arXiv, https://arxiv.org/list/cs.RO/2024-10?skip=700&show=100
- alphaXiv: Explore, https://www.alphaxiv.org/
- Paper Digest: NeurIPS 2024 Papers & Highlights, https://www.paperdigest.org/2024/10/neurips-2024-highlights/
- Artificial Intelligence - arXiv, https://arxiv.org/list/cs.AI/new